Например, Бобцов

Метод аугментации текстовых данных с сохранением стиля речи и лексики персоны

Аннотация:

Введение. В настоящее время часто для различных задач обработки естественного языка требуются большие наборы данных. Однако для многих задач сбор большого набора данных является трудоемким, дорогостоящим процессом и требует привлечения экспертов. Увеличение объема информации возможно достичь с использованием методов аугментации данных. Вместе с тем использование классических подходов может привести к включению в корпус данных фраз, которые отличаются по стилю речи и лексикону целевой персоны. Это сопровождается изменением целевого класса и появлением реплик с неестественным использованием лексики и отсутствием смысла. Предложен новый метод аугментации тестовых данных, учитывающий стиль и лексикон персоны. Метод. В работе разработан новый метод аугментации текстовых данных, сохраняющий индивидуальные речевые характеристики и словарный запас. Основная идея метода заключается в формировании индивидуальных шаблонов для каждого человека на основе анализа синтаксических деревьев высказываний и последующего создания новых реплик по сформированным шаблонам. Основные результаты. Метод апробирован на задаче оценки эмоционального состояния пользователя в диалоге. Исследования проведены для датасетов на английском и русском языках. Предложенный метод позволил повысить качество решения этих задач как для английского, так и для русского языков. Получено увеличений значений метрик accuracy и weighted F1 для разных моделей. Обсуждение. Результаты работы могут быть применены для повышения метрик accuracy и weighted F1 моделей, предназначенных для решения различных задач для английского и русского языков.

Ключевые слова:

Статьи в номере